#evaluación de modelos

CodeHacker: generación automatizada de pruebas para detectar vulnerabilidades

CodeHacker genera pruebas adversariales para detectar vulnerabilidades en soluciones de programación competitiva. Mejora benchmarks y entrena modelos de IA.

2026-06-03 · 2 min

Gate AI: Metodología y resultados de evaluación de seguridad en LLM

Descubre la metodología rigurosa de Gate AI para evaluar detectores de inyección y jailbreaks en LLM con umbral único y 16 benchmarks. Resultados sin sesgos.

2026-06-03 · 1 min

Alucinaciones sintéticas, ganancias reales: negativos duros para mitigar FIM

Descubre cómo los modelos frontera generan alucinaciones sintéticas como negativos duros para entrenar modelos de código y reducir alucinaciones +18.8%.

2026-06-03 · 2 min

Link Prediction o Perdición: Semillas de Inestabilidad en Embeddings

Los modelos de embedding de grafos son fiables? Este estudio revela inestabilidad en predicciones debido a semillas aleatorias. Conoce las limitaciones del MRR.

2026-06-03 · 2 min

Mitigación del Crédito Falso en RL con Rúbricas

GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.

2026-06-03 · 2 min

FinStressTS: Benchmark Sintético para Pronóstico Financiero

Descubre FinStressTS, un benchmark sintético que revela por qué modelos fallan en pronósticos financieros. Aprende sobre volatilidad, saltos y regímenes.

2026-06-03 · 2 min

Inestabilidad en la dirección de puntuación en detección de anomalías

La detección de anomalías con división de clases puede ser inestable. Un nuevo método sin entrenamiento (fuga de vecindad) predice la inestabilidad. Descubre cómo afecta a modelos en CIFAR-10 y más.

2026-06-03 · 3 min

Preentrenamiento de modelos de lenguaje en textos históricos

Descubre TypewriterLM, un modelo de lenguaje de 7.24B parámetros entrenado con textos anteriores a 1913. Supera desafíos de calidad y fuga temporal.

2026-06-03 · 2 min

La ilusión de generalización en modelos de lenguaje tabulares

¿Son realmente efectivos los modelos de lenguaje tabulares? Nuestra reevaluación de Tabula-8B muestra que la generalización se debe a artefactos de evaluación, no a aprendizaje real.

2026-06-03 · 2 min

KnowledgeBerg: cobertura sistemática y razonamiento composicional en LLMs

KnowledgeBerg: benchmark que evalúa cobertura sistemática y razonamiento composicional en LLMs. Resultados clave sobre sus limitaciones.

2026-06-03 · 2 min

Revisión y evaluación de avances en inteligencia 3D multimodal

Descubre los últimos avances y métodos en inteligencia 3D multimodal. Revisión exhaustiva de benchmarks y desafíos clave para la conducción autónoma y simulación.

2026-06-03 · 2 min

AutoEval correcto: evaluar modelos con datos sintéticos

Descubre cómo los algoritmos de AutoEval usan datos sintéticos para reducir costos de anotación humana y aumentar la muestra efectiva hasta un 50% con GPT-4.

2026-06-03 · 2 min

¿Qué tipos de fuga importan? Panorama cuantitativo en 2,047 datasets

Descubre qué tipo de fuga de datos es más peligrosa. Un estudio masivo en 2,047 datasets revela que la fuga por selección infla los resultados hasta un 90%.

2026-06-02 · 2 min

De Segmentos a Escenas: Comprensión Temporal en Conducción Autónoma

Conoce el benchmark TAD para conducción autónoma. Scene-CoT y TCogMap mejoran la comprensión temporal de VLMs hasta un 17.72% sin entrenamiento.

2026-06-02 · 1 min

Cuando una sola respuesta no basta: Nuevos benchmarks de retrosíntesis

Descubre cómo el nuevo benchmark CREED evalúa la retrosíntesis con LLMs priorizando la plausibilidad química. Conoce ChemCensor.

2026-06-02 · 3 min

ContinuousBench: ¿El texto sintético privado mejora capacidades?

Descubre cómo ContinuousBench evalúa si los datos sintéticos con privacidad diferencial aportan nuevas capacidades. Resultados clave incluso con ε=100.

2026-06-02 · 3 min

¿Quién anota en PLN? Evaluación masiva de informes de anotación humana (2018-2025)

Descubre cómo se documentan las anotaciones humanas en investigaciones de PLN entre 2018 y 2025, y qué aspectos clave suelen omitirse.

2026-06-02 · 2 min

3DCodeBench: Nuevo benchmark para modelado 3D procedural con IA

Descubre 3DCodeBench, el benchmark que evalúa agentes de IA en modelado 3D procedural vía código. Resultados, fallos comunes y mejoras con escalado en tiempo de prueba.

2026-06-02 · 2 min

Evaluación sensible al cronograma de datos generativos para detección de manos

Un estudio revela que combinar datos reales y sintéticos con un cronograma de entrenamiento específico aumenta la precisión en detección de manos con guantes, clave para seguridad laboral.

2026-06-02 · 2 min

NumLeak: Cómo los benchmarks públicos revelan memorización en modelos de IA

El framework NumLeak expone cómo los modelos de IA memorizan datos de benchmarks públicos. Una amenaza para la evaluación y la seguridad.

2026-06-01 · 2 min